딥러닝 기반 특징점 추출 및 정합

1. 서론: 특징점 정합의 패러다임 전환

컴퓨터 비전 분야에서 특징점 정합(Feature Matching)은 3차원 복원(3D Reconstruction), 동시적 위치추정 및 지도작성(Simultaneous Localization and Mapping, SLAM), 증강현실(Augmented Reality, AR) 등 수많은 응용 기술의 근간을 이루는 초석과 같은 기술이다.1 이는 서로 다른 시점에서 촬영된 영상들 사이에서 동일한 물리적 지점을 식별하고 대응 관계를 설정하는 과정으로, 기계가 시각 정보를 통해 공간을 이해하고 해석하는 데 있어 핵심적인 역할을 수행한다.1

지난 수십 년간 이 분야의 표준은 SIFT(Scale-Invariant Feature Transform)와 같은 수동 공학적(handcrafted) 방법론이 지배해왔다.1 이러한 접근법들은 기하학 및 신호 처리 이론에 기반하여 조명, 스케일, 회전 변화에 불변하는 이상적인 특징을 수학적으로 정의하고 추출하고자 했다. 그러나 이러한 수학적 이상주의는 실제 세계의 복잡성 앞에서 명백한 한계를 드러냈다. 텍스처가 거의 없는 평면, 극심한 시점 변화로 인한 기하학적 왜곡, 반복적인 패턴 등 비정형적인 환경은 수동으로 설계된 알고리즘의 가정을 위배하며 성능 저하를 야기했다.1

이러한 한계를 극복하기 위해 등장한 딥러닝, 특히 심층 합성곱 신경망(Deep Convolutional Neural Networks, DCNN)은 특징점 정합 분야에 근본적인 패러다임 전환을 가져왔다. 딥러닝은 이상적인 특징을 수학적으로 정의하려는 시도 대신, 방대한 양의 실제 데이터를 기반으로 강인한 특징 표현(representation)을 스스로 학습하는 데이터 기반의 실용주의적 접근법을 채택했다.7 이는 인간 전문가가 직접 특징을 설계하는 ’특징 공학(feature engineering)’의 시대를 종결시키고, 데이터에 내재된 통계적 규칙성을 통해 복잡하고 다양한 실제 환경에 효과적으로 대응할 수 있는 새로운 가능성을 열었다.10 본 보고서는 SIFT로 대표되는 전통적 접근법에서부터 최신 Transformer 기반 모델에 이르기까지, 딥러닝이 어떻게 특징점 정합의 패러다임을 혁신했는지 그 기술적 진화 과정을 심층적으로 추적한다. 또한, 핵심 딥러닝 모델들의 구조와 원리를 분석하고, 주요 응용 분야와 미래 연구 방향을 조망하여 해당 분야에 대한 포괄적인 이해를 제공하고자 한다.

2. 특징점 정합의 기본 파이프라인과 원리

전통적으로 특징 기반의 이미지 정합은 ‘검출(Detection)’, ‘기술(Description)’, ’정합(Matching)’이라는 명확하게 구분된 3단계 파이프라인을 통해 수행된다.1 각 단계는 독립적인 역할을 수행하면서도 유기적으로 연결되어 최종적인 대응점 쌍을 생성한다.

2.1 특징점 검출기 (Detector)

특징점 검출기의 역할은 영상 내에서 후속 단계에서 안정적으로 추적하고 식별할 수 있는 고유한 위치, 즉 특징점(keypoint) 또는 관심점(interest point)을 찾는 것이다. 이러한 지점들은 주로 코너(corner), 블롭(blob)과 같이 주변 픽셀들과 명확히 구분되는 높은 정보량을 가진 영역이다.13

검출기의 성능을 평가하는 가장 중요한 지표는 **반복성(Repeatability)**이다.13 반복성이란 동일한 3차원 물리적 지점이 카메라의 시점, 조명 조건, 이미지 스케일 등이 변화하더라도 여러 이미지에 걸쳐 일관되게 검출되는 능력을 의미한다.14 높은 반복성은 신뢰할 수 있는 정합의 가장 기본적인 전제 조건으로, 만약 한 이미지에서 검출된 특징점이 다른 이미지에서 검출되지 않는다면 애초에 정합 자체가 불가능하기 때문이다.

2.2 특징점 기술자 (Descriptor)

특징점 기술자는 검출된 각 특징점 주변의 지역적 이미지 패치(local patch) 정보를 고유한 수치 벡터로 변환하는 역할을 한다.16 이 벡터는 해당 특징점의 외형적 특성을 압축적으로 표현하는 일종의 “수치적 지문(numerical fingerprint)“으로 기능하여, 다른 특징점들과 구별될 수 있도록 한다.17

좋은 기술자는 두 가지 핵심 속성을 만족해야 한다. 첫째는 **변별력(Discriminability)**으로, 서로 다른 물리적 지점에서 추출된 특징점들이 명확히 구분되는 고유한 기술자 벡터를 생성하는 능력이다.15 둘째는 **불변성(Invariance)**으로, 동일한 물리적 지점에서 추출된 특징점이 조명이나 시점 변화를 겪더라도 최대한 유사한 기술자 벡터를 유지하는 능력이다.

2.3 특징점 정합기 (Matcher)

마지막으로 특징점 정합기는 두 이미지에서 추출된 기술자 벡터 집합을 입력받아, 벡터 공간에서 서로 유사한 쌍을 찾아 잠재적인 대응점(putative correspondences)을 형성한다. 가장 보편적인 방법은 각 기술자에 대해 다른 이미지에서 유클리드 거리(Euclidean distance)가 가장 가까운 기술자를 찾는 최근접 이웃(Nearest Neighbor) 탐색이다.18

초기 정합 결과에는 필연적으로 다수의 잘못된 매칭, 즉 오정합(outlier)이 포함된다. 이를 제거하기 위해 Lowe의 비율 테스트(Ratio Test)와 같은 휴리스틱 기법을 사용하거나, RANSAC(Random Sample Consensus) 알고리즘을 통해 기하학적 모델(예: 호모그래피, 기본 행렬)을 반복적으로 추정하고, 이 모델과 일관성을 갖는 정합 쌍(inlier)만을 최종 결과로 선택한다.15

이러한 3단계 파이프라인의 순차적 종속성은 전통적 방법론의 강점이자 동시에 치명적인 약점으로 작용했다. 각 단계가 모듈화되어 있어 개별적인 연구와 개선(예: 검출기 개선, 더 나은 기술자 개발)이 용이하다는 장점이 있었다. 그러나 이는 실패의 연쇄 반응을 유발하는 구조적 한계를 내포한다. 예를 들어, 텍스처가 부족한 영역에서 검출기가 특징점을 찾는 데 실패하면, 그 지점은 기술 및 정합 단계에서 영원히 고려될 기회를 잃게 된다.1 즉, 전체 시스템의 성능은 파이프라인의 가장 약한 연결 고리, 특히 도전적인 환경에서의 검출기 성능에 의해 결정되는 병목 현상이 발생한다.21 이러한 구조적 한계에 대한 인식은 각 단계를 통합하거나 파이프라인 자체를 해체하려는 딥러닝 기반 방법론의 진화를 촉발하는 핵심적인 동기가 되었다.

3. 전통적 방법론 대 딥러닝 기반 방법론

3.1 수동 공학의 정점: SIFT 심층 분석

2004년 David Lowe에 의해 제안된 SIFT는 수동 공학적 특징점 알고리즘의 정점에 있는 기술로 평가받는다.1 SIFT는 다음과 같은 4단계 과정을 통해 스케일과 회전에 불변하는 특징점을 추출하고 기술한다.

스케일 공간 극값 검출 (Scale-space Extrema Detection): 이미지를 여러 스케일로 가우시안 블러링(Gaussian blurring)한 후, 인접한 스케일 이미지 간의 차이를 계산하여 DoG(Difference-of-Gaussian) 피라미드를 생성한다. 이 DoG 공간에서 3x3x3 이웃 픽셀에 대해 극값(최대 또는 최소)을 갖는 지점을 특징점 후보로 선정한다.23
부정확한 특징점 제거 (Keypoint Localization): 저대비(low contrast) 특징점이나 엣지(edge)에 위치한 불안정한 특징점을 제거하여 위치 정확도와 안정성을 높인다.
주 방향 할당 (Orientation Assignment): 각 특징점 주변 픽셀들의 그래디언트 방향 히스토그램을 계산하여 가장 빈도가 높은 방향을 해당 특징점의 주 방향으로 할당한다. 이를 통해 회전 불변성을 확보한다.
기술자 생성 (Descriptor Generation): 특징점의 주 방향을 기준으로 이미지 패치를 회전시킨 후, 16x16 픽셀 영역을 4x4개의 하위 영역으로 나누고 각 하위 영역에서 8방향 그래디언트 히스토그램을 계산한다. 이를 모두 연결하여 최종적으로 128차원의 기술자 벡터를 생성한다.23

SIFT는 뛰어난 불변성 덕분에 오랫동안 컴퓨터 비전 분야의 표준으로 자리 잡았으나, DoG 연산과 히스토그램 계산에 많은 연산량이 소요되어 실시간 응용에 제약이 있었고, 텍스처가 부족하거나 반복적인 패턴을 가진 영역에서는 안정적인 특징점을 찾기 어려운 한계를 지녔다.1

3.2 딥러닝의 핵심 우위: 자동화된 계층적 특징 학습

딥러닝 기반 방법론은 SIFT와 같은 전통적 접근법과 근본적으로 다른 철학을 가진다. 가장 큰 차이점은 특징 공학의 자동화이다. 전통적 기계학습이 암 검출 예시처럼 전문가가 암의 ‘뾰족한’ 또는 ‘울퉁불퉁한’ 특징을 직접 정의하고 추출해야 했던 반면, 딥러닝은 원본 데이터(raw data)로부터 어떠한 특징이 중요한지를 스스로 학습한다.6 이는 개발 과정을 단순화할 뿐만 아니라, 인간이 직관적으로 설계하기 어려운 복잡하고 추상적인 특징 표현을 데이터로부터 발견할 수 있게 한다.10

이러한 능력의 핵심에는 **계층적 표현 학습(Hierarchical Representation)**이 있다. CNN의 깊은 신경망 구조는 입력에 가까운 초기 계층(early layers)에서는 엣지, 코너, 색상과 같은 단순하고 저수준(low-level)의 시각적 패턴을 감지한다. 더 깊은 계층(deeper layers)으로 나아갈수록, 이전 계층에서 학습된 저수준 특징들을 조합하여 눈, 코, 입과 같은 객체의 일부나 더 복잡한 형태의 고수준(high-level) 특징을 점진적으로 학습하게 된다.7

또한, 딥러닝 모델의 성능은 학습에 사용된 데이터의 양과 질에 비례하는 경향이 있다.8 대규모의 다양한 데이터셋으로 훈련된 모델은 전통적인 알고리즘이 실패하기 쉬운 극심한 조명 변화, 큰 시점 차이, 이미지 노이즈 등 어려운 조건에서도 뛰어난 강건성(robustness)과 일반화(generalization) 성능을 보인다.10

3.3 성능 비교 분석

딥러닝 모델, 특히 최신 아키텍처들은 HPatches와 같은 표준 벤치마크에서 SIFT를 비롯한 전통적 방법론의 성능을 크게 상회한다.24 특히 텍스처가 없는 벽이나 반복적인 패턴의 바닥과 같이 전통적인 검출기가 안정적인 특징점을 찾지 못해 실패하는 영역에서, 딥러닝 기반의 detector-free 모델들은 주변의 전역적 문맥(global context)을 활용하여 성공적으로 대응점을 찾아낸다.1

그러나 이러한 성능적 우위에는 몇 가지 상충 관계(trade-off)가 존재한다. SIFT와 같은 전통적 방법은 알고리즘의 각 단계가 수학적으로 명확하게 정의되어 있어 결과의 해석이 용이하다. 반면, 딥러닝 모델은 수백만 개의 파라미터가 상호작용하는 복잡한 구조로 인해 “블랙박스(black box)“처럼 작동하여 왜 특정 결정을 내렸는지 이해하기 어렵다.10 또한, 딥러닝 모델의 학습과 추론 과정은 대량의 행렬 연산을 포함하므로 GPU와 같은 고성능 병렬 처리 하드웨어를 필수적으로 요구하며, 이는 상당한 계산 비용과 에너지 소비를 수반할 수 있다.11

3.3.1 전통적 방법론 vs. 딥러닝 방법론 비교

평가 기준 (Criterion)	전통적 방법론 (예: SIFT)	딥러닝 기반 방법론
특징 설계 (Feature Design)	수동 공학 (Handcrafted), 수학적 원리 기반	데이터 기반 자동 학습 (Data-driven, Learned)
핵심 원리 (Core Principle)	불변성(Invariance)의 수학적 정의	대규모 데이터로부터 통계적 강건성(Robustness) 학습
성능 (Performance)	구조화된 환경에서 우수	비구조적, 도전적 환경에서 월등한 성능
강건성 (Robustness)	텍스처 부족, 극심한 조명/시점 변화에 취약	데이터셋에 포함된 다양한 변화에 강인함
데이터 의존성 (Data Dependency)	낮음	매우 높음. 성능은 데이터의 양과 질에 비례
계산 비용 (Computational Cost)	CPU에서 실행 가능, 상대적으로 느림	학습 및 추론에 GPU/TPU 필수, 높은 비용 발생 가능
해석 가능성 (Interpretability)	높음 (알고리즘이 명확함)	낮음 (“블랙박스” 문제)
일반화 (Generalization)	설계된 변환 내에서 일반화	학습 데이터 분포 내에서 강력한 일반화, 분포 외 데이터에 취약 가능

4. 학습 기반 특징점 검출 및 기술 모델 심층 분석

딥러닝 기반 방법론의 초기 발전은 전통적인 파이프라인의 각 구성 요소를 학습 기반 모듈로 대체하거나 개선하는 데 집중되었다. 이 장에서는 검출기와 기술자를 통합적으로 학습하는 SuperPoint와 기술자의 변별력을 극대화하는 데 초점을 맞춘 HardNet을 심층적으로 분석한다.

4.1 SuperPoint: 자기 지도 학습 기반 통합 검출 및 기술

SuperPoint는 단일 순방향 패스(single forward pass)를 통해 이미지에서 특징점의 위치와 해당 기술자 벡터를 동시에 효율적으로 추출하는 완전 합성곱 신경망(fully-convolutional neural network)이다.28 이는 검출과 기술이라는 두 가지 작업을 별개의 프로세스로 취급했던 전통적 방식과 달리, 두 작업을 위한 계산 과정과 특징 표현을 공유함으로써 전체 파이프라인의 효율성을 높인다.28

4.1.1 아키텍처 분석

SuperPoint의 아키텍처는 세 가지 주요 부분으로 구성된다.28

공유 인코더 (Shared Encoder): VGG-style의 CNN 인코더를 사용하여 입력 이미지로부터 계층적인 특징을 추출하고 이미지의 공간적 차원을 점진적으로 축소한다. 이 인코더를 통해 추출된 특징 맵은 후속 디코더에서 공유된다.
특징점 디코더 (Interest Point Decoder): 인코더의 출력 특징 맵을 입력받아, 이미지의 각 픽셀이 특징점일 확률을 나타내는 히트맵(heatmap)을 생성한다. 계산 효율성을 높이고 체커보드 아티팩트를 방지하기 위해 일반적인 업샘플링(upsampling) 대신 ‘depth to space’(PyTorch의 PixelShuffle) 연산을 사용하여 고해상도 출력을 얻는다.
기술자 디코더 (Descriptor Decoder): 동일한 인코더 특징 맵으로부터, 검출된 특징점 위치에 해당하는 준밀집(semi-dense) 기술자 맵을 출력한다.

4.1.2 Homographic Adaptation

SuperPoint의 핵심 혁신 중 하나는 대규모의 수동 레이블링 없이도 모델을 효과적으로 학습시키는 Homographic Adaptation이라는 자기 지도 학습(self-supervised learning) 전략이다.28 이 과정은 다음과 같다.

먼저 간단한 형태의 합성 데이터로 초기 검출기(MagicPoint)를 학습시킨다.
레이블이 없는 실제 이미지에 수많은 무작위 호모그래피 변환(homographic transformations)을 적용하여 여러 버전의 왜곡된 이미지를 생성한다.
초기 검출기를 사용하여 이 왜곡된 이미지들에서 특징점을 각각 검출한다.
호모그래피 변환을 역으로 적용하여 모든 특징점을 원본 이미지 좌표계로 모은 후, 여러 변환에서 일관되게 검출되는 안정적인 지점들을 종합하여 신뢰도 높은 의사 정답(pseudo-ground truth) 레이블을 생성한다.
이렇게 생성된 고품질의 의사 정답 레이블을 사용하여 최종 SuperPoint 네트워크를 지도 학습 방식으로 훈련시킨다.

4.1.3 손실 함수 분석

SuperPoint의 전체 손실 함수는 특징점 검출 손실( $\mathcal{L}_p$ )과 기술자 손실( $\mathcal{L}_d$ )의 가중 합으로 구성된다.

$\mathcal{L}(\mathcal{X},\mathcal{X}^{\prime},\mathcal{D},\mathcal{D}^{\prime};Y,Y^{\prime},S)=\mathcal{L}_{p}(\mathcal{X},Y)+\mathcal{L}_{p}(\mathcal{X}^{\prime},Y^{\prime})+\lambda\mathcal{L}_{d}(\mathcal{D},\mathcal{D}^{\prime},S)$

특징점 손실 ( $\mathcal{L}_p$ ): 픽셀별 교차 엔트로피 손실(pixel-wise cross-entropy loss)을 사용한다. 이는 네트워크가 예측한 특징점 확률 히트맵이 Homographic Adaptation을 통해 생성된 의사 정답 히트맵과 일치하도록 학습시킨다.
기술자 손실 ( $\mathcal{L}_d$ ): Hinge loss에 기반한 쌍별 손실 함수(pairwise loss function)를 사용한다. 호모그래피 변환을 통해 서로 대응되는 것으로 알려진 기술자 쌍(positive pair) 사이의 거리는 특정 마진( $m_p$ )보다 작아지도록, 대응되지 않는 기술자 쌍(negative pair) 사이의 거리는 다른 마진( $m_n$ )보다 커지도록 유도하여 기술자의 변별력을 높인다.

4.2 HardNet: 변별력 높은 기술자를 위한 손실 함수 최적화

HardNet은 기술자의 변별력을 극대화하기 위해 네트워크 아키텍처보다는 학습 과정, 특히 손실 함수 설계에 집중한 모델이다.30 이는 기술자 학습 분야에서 아키텍처의 혁신보다 학습 목표(loss function)와 샘플링 전략의 최적화가 성능 향상에 더 결정적인 영향을 미칠 수 있음을 보여주는 중요한 사례이다. L2-Net과 같은 기존 모델과 유사한 CNN 아키텍처를 사용하면서도, 새로운 손실 함수를 통해 당시 최고 수준(SOTA)의 성능을 달성했다.

4.2.1 Triplet Margin Loss와 Hard Negative Mining

HardNet의 핵심은 Hard Negative Mining 전략을 적용한 Triplet Margin Loss이다.

Triplet Loss: 이 손실 함수는 ‘앵커(anchor)’, ‘포지티브(positive)’, ‘네거티브(negative)’ 세 개의 샘플로 구성된 트리플렛(triplet)을 기반으로 작동한다. 앵커는 기준 샘플, 포지티브는 앵커와 같은 클래스(즉, 대응되는 특징점)의 샘플, 네거티브는 다른 클래스(대응되지 않는 특징점)의 샘플이다. 학습 목표는 앵커-포지티브 간의 거리 $d(a, p)$ 는 가깝게 만들고, 앵커-네거티브 간의 거리 $d(a, n)$ 는 특정 마진( $m$ ) 이상으로 멀어지게 하는 것이다.32
HardNet의 혁신: 기존 방식들이 트리플렛을 구성할 때 네거티브 샘플을 무작위로 선택했던 것과 달리, HardNet은 주어진 미니배치(mini-batch) 내에서 앵커와 가장 가까운 네거티브 샘플, 즉 모델이 가장 헷갈려하는 ‘어려운’ 샘플(hardest negative)을 찾아 학습에 집중적으로 활용한다.30 이 전략은 모델이 쉬운 샘플들에 대한 불필요한 계산을 줄이고, 변별 경계에 있는 어려운 샘플들을 효과적으로 분리하도록 강제하여 학습 효율과 최종적인 기술자 변별력을 크게 향상시킨다.

4.2.2 손실 함수 수식

HardNet은 배치 내에서 각 매칭 쌍 $(a_i, p_i)$ 에 대해, $a_i$ 에 가장 가까운 비매칭 디스크립터와 $p_i$ 에 가장 가까운 비매칭 디스크립터를 모두 찾고, 그 중 더 ‘어려운’(더 가까운) 것을 네거티브로 선택하여 트리플렛 손실을 계산한다. 구체적인 손실 함수는 다음과 같다.30

$L = \frac{1}{n} \sum_{i=1,n} \max (0, 1 + d(a_i, p_i) - \min (d(a_i, p_{j_{min}}), d(a_{k_{min}}, p_i)))$
여기서 $d(a_i, p_i)$ 는 $i$ 번째 매칭 쌍(앵커-포지티브)의 거리이며, $\min (d(a_i, p_{j_{min}}), d(a_{k_{min}}, p_i))$ 항은 해당 매칭 쌍에 대한 배치 내 가장 어려운 네거티브 샘플까지의 거리를 나타낸다. 이 손실 함수는 매칭 쌍의 거리에 1(마진)을 더한 값이 가장 어려운 비매칭 쌍의 거리보다 작아지도록, 즉 매칭 쌍은 가깝게, 비매칭 쌍은 멀게 만들도록 네트워크를 최적화한다.

5. 컨텍스트를 활용한 차세대 정합 모델

초기 딥러닝 모델들이 파이프라인의 개별 요소를 개선하는 데 집중했다면, 차세대 모델들은 이미지의 전역적인 컨텍스트(global context)를 활용하여 정합 과정 자체를 학습하는 방향으로 발전했다. 이 장에서는 GNN을 이용해 정합을 추론하는 SuperGlue와, 검출기 단계를 제거하고 Transformer로 종단간 정합을 수행하는 LoFTR을 분석한다.

5.1 SuperGlue: 그래프 신경망을 이용한 ‘학습 가능한 중간 단계’

SuperGlue는 전통적인 파이프라인에서 특징점 검출 및 기술 이후, 그리고 기하학적 검증 이전에 위치하는 ’학습 가능한 중간 단계(learnable middle-end)’라는 혁신적인 개념을 제시했다.34 이 모델은 두 이미지에서 추출된 특징점 집합을 하나의 그래프(graph)로 간주하고, 그래프 신경망(Graph Neural Network, GNN)을 통해 특징점들 간의 기하학적, 시각적 컨텍스트를 종합적으로 추론하여 정합 성능을 극대화한다.34

5.1.1 아키텍처 분석

SuperGlue는 두 가지 핵심 모듈로 구성된다.34

Attentional Graph Neural Network: 이 모듈은 특징점의 위치와 시각적 기술자 정보를 입력받아, Self-Attention과 Cross-Attention 메커니즘을 번갈아 수행하며 각 특징점의 표현(representation)을 점진적으로 풍부하게 만든다.

Self-Attention: 동일 이미지 내의 특징점들 간의 관계를 모델링한다. 이를 통해 특정 특징점이 주변의 다른 특징점들과 어떤 기하학적, 시각적 관계를 맺고 있는지 파악하여 표현력을 강화한다.
Cross-Attention: 두 이미지 사이의 특징점들 간의 관계를 모델링한다. 이를 통해 한 이미지의 특징점이 다른 이미지의 어떤 특징점들과 잠재적인 대응 관계에 있는지를 추론하며, 전역적으로 일관된 정합을 찾는 데 도움을 준다.

Optimal Matching Layer: GNN을 통해 풍부해진 특징 표현을 기반으로, 정합 문제를 미분 가능한(differentiable) 최적 수송(Optimal Transport) 문제로 공식화한다. 효율적인 Sinkhorn 알고리즘을 사용하여 두 특징점 집합 간의 최적의 부분 할당 행렬(partial assignment matrix)을 계산한다.34 이 방식의 가장 큰 장점은 매칭되지 않는 점들을 자연스럽게 ’더스트빈(dustbin)’이라는 가상의 노드에 할당할 수 있다는 점이다. 이는 실제 상황에서 빈번하게 발생하는 가려짐(occlusion)이나 검출 실패로 인해 대응점이 없는 특징점들을 강건하게 처리할 수 있게 한다.34

5.1.2 손실 함수 분석

SuperGlue는 알려진 정답 매칭 쌍 $\mathcal{M}$ 을 이용해 지도 학습 방식으로 훈련된다. 손실 함수는 예측된 할당 행렬 $\bar{P}$ 에 대한 Negative Log-Likelihood를 최소화하도록 설계되었다. 이는 모델이 정답 매칭 쌍 $(i, j)$ 에 대해서는 할당 확률 $\bar{P}_{i,j}$ 를 최대화하고, 매칭되지 않아야 하는 점들( $\mathcal{I}$ , $\mathcal{J}$ )에 대해서는 더스트빈에 할당될 확률( $\bar{P}_{i, N+1}$ 또는 $\bar{P}_{M+1, j}$ )을 최대화하도록 유도한다.36

$Loss = - \sum_{(i,j) \in \mathcal{M}} \log \bar{P}_{i,j} - \sum_{i \in \mathcal{I}} \log \bar{P}_{i, N+1} - \sum_{j \in \mathcal{J}} \log \bar{P}_{M+1, j}$

5.2 LoFTR: 검출기 없는(Detector-Free) 종단간 정합

LoFTR(Local Feature TRansformer)은 전통적인 ‘검출 후 정합’ 패러다임에서 과감히 벗어나, 특징점 검출 단계를 완전히 제거한 최초의 성공적인 모델 중 하나이다.1 LoFTR은 Transformer 아키텍처를 도입하여 두 이미지의 모든 픽셀 위치에서 조밀한(dense) 특징 표현을 직접적으로 비교하고 정합하는 종단간(end-to-end) 방식을 채택했다.26

5.2.1 아키텍처 분석

LoFTR의 파이프라인은 다음과 같은 Coarse-to-Fine 구조를 가진다.26

CNN 기반 특징 추출: 먼저 FPN(Feature Pyramid Network)과 유사한 CNN 백본(backbone)을 사용하여 두 이미지로부터 저해상도의 조밀한 특징 맵(coarse feature map)과 원본 해상도에 가까운 고해상도 특징 맵(fine feature map)을 각각 추출한다.
LoFTR 모듈 (Transformer): 저해상도 특징 맵에 Transformer를 적용하여 특징 표현을 변환한다. SuperGlue와 유사하게 Self-Attention과 Cross-Attention 레이어를 교차로 사용하여 각 특징이 이미지 내, 그리고 이미지 간의 전역적인 문맥 정보를 반영하도록 한다. Transformer의 위치 인코딩(positional encoding)과 전역적인 수용장(receptive field) 덕분에, 최종적으로 생성된 특징 표현은 위치와 문맥에 따라 동적으로 변화하는(context-and-position-dependent) 특성을 갖게 된다. 이것이 바로 텍스처가 거의 없는 평평한 벽과 같은 영역에서도 주변의 구조적 정보를 활용하여 신뢰도 높은 정합을 가능하게 하는 핵심 원리이다.26
차별적 매칭 및 Coarse-to-Fine 정제: Transformer를 통과한 두 특징 맵 간의 내적(dot product)을 통해 상관관계(correlation)를 계산하고, Dual-Softmax 연산을 적용하여 신뢰도 행렬(confidence matrix)을 얻는다. 이 행렬에서 신뢰도가 높은 위치들을 초기 정합(coarse matches)으로 선택한다.26 그 후, 각 초기 정합 지점을 중심으로 고해상도 특징 맵에서 작은 윈도우를 설정하고, 그 안에서 다시 상관관계를 계산하여 서브픽셀(sub-pixel) 수준의 정밀한 최종 정합 위치(fine matches)를 찾는다.26

5.2.2 손실 함수 분석

LoFTR의 전체 손실 함수는 Coarse-level에서의 분류 손실( $L_c$ )과 Fine-level에서의 회귀 손실( $L_f$ )의 합으로 구성된다.

Coarse-level 손실 ( $L_c$ ): 초기 정합 단계에서는 ground-truth 매칭 위치에 대한 Negative Log-Likelihood 손실을 사용한다.

$L_c = - \frac{1}{|\mathcal{M}_{gt}^c|} \sum_{(\tilde{i}, \tilde{j}) \in \mathcal{M}_{gt}^c} \log \mathcal{P}_c(\tilde{i}, \tilde{j})$
Fine-level 손실 ( $L_f$ ): 정제 단계에서는 예측된 서브픽셀 위치와 ground-truth 위치 간의 L2 거리를 최소화하는 회귀 손실을 사용한다. 이때, 예측의 불확실성( $\sigma^2(\hat{i})$ )이 높은 경우 손실 가중치를 낮추어 안정적인 학습을 유도한다.

$L_f = \frac{1}{|\mathcal{M}_f|} \sum_{(\hat{i}, \hat{j}') \in \mathcal{M}_f} \frac{1}{\sigma^2(\hat{i})} || \hat{j}' - \hat{j}'_{gt} ||^2_2$

5.2.3 주요 딥러닝 모델 핵심 아이디어 및 특징 요약

모델 (Model)	핵심 아이디어 (Core Idea)	아키텍처 특징 (Architectural Feature)	주요 장점 (Key Advantage)
SuperPoint	자기 지도 학습(Self-Supervised)을 통한 통합 검출 및 기술	공유 인코더 + 2개 디코더 헤드, Homographic Adaptation	레이블 없이 강건한 특징점 및 기술자 동시 학습
HardNet	배치 내 가장 어려운 샘플을 활용한 기술자 변별력 극대화	L2-Net 기반 CNN, Hard Negative Mining Triplet Loss	매우 높은 변별력을 가진 컴팩트한 기술자 생성
SuperGlue	GNN 기반의 ’학습 가능한 중간 단계’로 컨텍스트 추론	Attentional GNN, Optimal Matching Layer (Sinkhorn)	전역적 컨텍스트를 활용한 매우 정확하고 강건한 정합
LoFTR	검출기 없는(Detector-Free) 종단간(End-to-End) 정합	CNN + Transformer (Self/Cross-Attention), Coarse-to-Fine	텍스처가 거의 없는 영역에서도 조밀한 정합 가능

6. 성능 평가 방법론

딥러닝 기반 특징점 정합 모델의 성능을 객관적으로 평가하고 비교하기 위해서는 표준화된 지표와 벤치마크 데이터셋이 필수적이다.

6.1 핵심 평가 지표

6.1.1 반복성 (Repeatability)

반복성은 주로 특징점 검출기(detector)의 성능을 평가하는 핵심 지표이다.13 이는 두 이미지 간의 알려진 기하학적 변환(예: 호모그래피) 관계를 이용하여, 한 이미지에서 검출된 특징점 영역이 변환 후 다른 이미지의 상응하는 영역과 얼마나 정확하게 겹치는지를 측정한다.15 Mikolajczyk와 Schmid에 의해 제안된 표준 프로토콜에서는 두 영역 간의 중첩 영역 비율(overlap ratio)이 특정 임계값(예: 50%)을 초과하는 특징점들의 백분율로 반복성을 계산한다.40 높은 반복성은 검출기가 시점이나 조명 변화에 강건함을 의미한다.

6.1.2 평균 정합 정확도 (Mean Matching Accuracy, MMA)

MMA는 검출, 기술, 정합을 포함한 전체 파이프라인의 최종 성능을 평가하는 데 널리 사용되는 지표이다.25 이는 모델이 예측한 정합점의 위치와, 알려진 ground-truth 변환을 통해 계산된 실제 정답 위치 간의 픽셀 단위 오차를 기반으로 한다. 일반적으로 MMA는 이 오차가 1, 3, 5 픽셀 등 미리 정의된 픽셀 임계값 이내에 있는 정합들의 비율(%)로 보고된다.25

이러한 평가 지표들은 모델의 발전과 함께 진화해왔다. 초기 연구는 검출기의 기하학적 안정성에 초점을 맞춘 반복성에 집중했다. 이후 기술자와 정합기의 성능이 중요해지면서 전체 파이프라인의 정확도를 측정하는 MMA가 보편화되었다. 최근 SuperGlue와 같은 모델들은 MMA 점수뿐만 아니라, 정합 결과를 이용해 추정한 카메라 포즈의 정확도와 같은 후속 작업(downstream task)의 성능으로 평가받는 경우가 많아졌다.34 이는 ’좋은 정합’의 정의가 단순히 픽셀 오차가 작은 것을 넘어, 실제 응용 문제 해결에 얼마나 기여하는지로 확장되고 있음을 보여준다. 더 나아가 LoFTR과 같은 detector-free 모델의 등장은 개별 특징점의 반복성을 측정하는 전통적인 지표의 유효성에 의문을 제기하며, 조밀한 대응 관계를 평가할 수 있는 새로운 벤치마크의 필요성을 부각시키고 있다. 이처럼 모델의 발전은 평가 방법론의 한계를 드러내고, 새로운 평가 기준의 등장을 촉진하며, 이는 다시 차세대 모델의 개발 방향을 제시하는 선순환 구조를 형성한다.

6.2 표준 벤치마크: HPatches 데이터셋

HPatches는 로컬 이미지 기술자(descriptor)의 성능을 평가하기 위해 학계에서 가장 널리 사용되는 대규모 벤치마크 데이터셋이다.44 이 데이터셋은 기존 벤치마크들이 가진 평가 프로토콜의 모호성과 데이터 부족 문제를 해결하고, 재현 가능하며 신뢰할 수 있는 비교를 제공하기 위해 개발되었다.44

HPatches는 총 116개의 장면 시퀀스로 구성되며, 각 시퀀스는 상당한 시점 변화(viewpoint changes) 또는 조명 변화(illumination changes) 중 하나를 주요 변인으로 포함한다.46 이 데이터셋의 가장 큰 특징은 전체 이미지가 아닌, 사전에 다양한 검출기로 추출된 65x65 픽셀 크기의 패치(patch)를 기반으로 평가를 수행한다는 점이다.44 이는 특정 검출기의 성능에 평가 결과가 종속되는 것을 방지하고, 순수하게 기술자 자체의 변별력과 불변성을 측정할 수 있게 해준다. HPatches는 (1) 두 패치가 동일한 지점에서 온 것인지 분류하는 패치 검증(Patch Verification), (2) 이미지 쌍 간의 올바른 매칭 수를 측정하는 이미지 정합(Image Matching), (3) 주어진 쿼리 패치와 가장 유사한 패치를 데이터베이스에서 찾는 **패치 검색(Patch Retrieval)**의 세 가지 주요 평가 과제를 제공하여 다양한 시나리오에서 기술자의 성능을 종합적으로 분석할 수 있도록 한다.45

7. 주요 응용 분야 및 사례 연구

딥러닝 기반 특징점 정합 기술의 발전은 단순한 학술적 성과를 넘어, 다양한 컴퓨터 비전 응용 분야의 성능을 혁신적으로 향상시키는 원동력이 되고 있다.

7.1 3차원 복원: SfM 및 SLAM

SfM(Structure from Motion)과 SLAM은 여러 장의 이미지로부터 카메라의 3차원 궤적과 주변 환경의 3차원 구조를 동시에 복원하는 기술이다. 이 두 기술의 성능과 강건성은 이미지 간의 정확한 특징점 대응 관계를 얼마나 잘 설정하는지에 따라 결정된다.21

SuperGlue의 통합: SuperGlue는 기존 SLAM/SfM 파이프라인의 특징 정합 및 오정합 제거 단계를 대체하는 강력한 ‘중간 단계(middle-end)’ 모듈로 통합될 수 있다.34 극심한 시점 변화나 열악한 조명 조건과 같이 전통적인 매칭 알고리즘이 실패하는 환경에서도, SuperGlue는 GNN을 통한 컨텍스트 추론 능력으로 매우 강건하고 정확한 매칭을 제공한다. 이는 루프 폐쇄(loop closure) 실패율을 낮추고, 최종적으로 복원된 3D 모델의 정확도와 완성도를 크게 향상시키는 효과를 가져온다.34 SuperSLAM과 같은 여러 오픈소스 SLAM 프레임워크에서 SuperPoint와 함께 핵심 프론트엔드 모듈로 활발히 활용되고 있다.47
LoFTR의 활용: LoFTR과 같은 detector-free 접근법은 3차원 복원 분야의 새로운 지평을 열었다. 특히 텍스처가 거의 없는 실내 벽이나 특정 인공물과 같이, 전통적인 특징점 기반 SfM 파이프라인이 키포인트 검출 실패로 인해 복원 자체를 시작하지 못하는 장면에서 큰 강점을 보인다.21 LoFTR은 이러한 영역에서도 조밀한 매칭을 통해 상대적인 카메라 포즈를 안정적으로 추정함으로써, 이전에는 복원이 불가능했던 대상에 대한 3D 모델링을 가능하게 한다.21

이러한 사례들은 딥러닝 기반 정합 기술이 더 이상 특정 응용을 위한 전문화된 알고리즘이 아니라, 다양한 시각 기반 공간 인식 문제에 공통적으로 적용될 수 있는 범용적인 ’시각 인지 엔진(visual perception engine)’으로 진화하고 있음을 시사한다. 과거에는 SfM, SLAM, 파노라마 스티칭 등 각 분야가 고유의 데이터 연관(data association) 휴리스틱을 개발해야 했다면, 이제는 SuperGlue나 LoFTR과 같은 강력하고 일반화된 단일 정합 모델을 기반으로 시스템을 구축하는 방향으로 연구의 초점이 이동하고 있다. 이는 마치 자연어 처리 분야에서 대규모 언어 모델(LLM)이 다양한 작업의 기반 플랫폼이 된 것과 유사한 현상으로, 응용 분야의 개발을 가속화하고 전반적인 성능을 상향 평준화하는 역할을 한다.

7.2 파노라마 이미지 스티칭 (Panorama Image Stitching)

파노라마 이미지 스티칭은 여러 장의 겹치는 이미지를 정렬하여 하나의 넓은 화각을 가진 고해상도 이미지로 합성하는 기술이다. 이 과정의 핵심은 이미지 간의 정확한 기하학적 변환, 주로 호모그래피(homography) 행렬을 추정하는 것이며, 이는 고품질의 특징점 정합 결과에 절대적으로 의존한다.50

딥러닝은 이 분야에서도 두 가지 주요 방향으로 기여하고 있다. 첫째, Deep Features의 활용이다. SIFT 대신 SuperPoint나 LoFTR과 같은 딥러닝 기반 특징을 사용하면, 시차(parallax)가 크거나, 움직이는 객체가 포함되어 있거나, 겹치는 영역이 적은 도전적인 상황에서도 더 많고 정확한 대응점을 찾을 수 있다.50 이는 호모그래피 추정의 정확도를 높여 최종 파노라마 이미지의 어긋남(misalignment)이나 왜곡(ghosting) 현상을 크게 줄여준다. 둘째, Deep Homography 접근법이다. 이는 특징점 정합과 RANSAC 과정을 거치는 대신, CNN을 사용하여 두 이미지 패치로부터 직접 호모그래피 행렬을 예측하는 종단간 학습 방식이다.51

8. 당면 과제와 미래 연구 방향

딥러닝 기반 특징점 정합 기술은 괄목할 만한 성과를 이루었지만, 여전히 해결해야 할 과제와 무한한 연구 가능성을 안고 있다.

8.1 실시간 성능과 연산 효율성

SuperGlue와 LoFTR 같은 최신 모델들은 GNN과 Transformer 아키텍처에 기반하여 높은 정확도를 달성했지만, 이들의 연산 복잡도(특히 어텐션 메커니즘의 2차 복잡도)는 상당한 계산 자원을 요구한다.1 이는 실시간 처리가 필수적인 모바일 AR, 드론, 로보틱스 분야에 이 기술들을 적용하는 데 큰 장벽으로 작용한다.1 따라서 현재 연구 동향은 높은 정확도를 유지하면서도 연산 효율성을 높이는 데 집중되고 있다. 이를 위해 모델 아키텍처를 경량화(예: LightGlue)하거나 57, 연산을 근사화하고, 점진적 또는 적응형 추론(adaptive inference)을 도입하여 쉬운 이미지 쌍에 대해서는 계산을 조기에 종료하는 등의 연구가 활발히 진행 중이다.1

8.2 자기 지도 학습(Self-Supervised Learning)을 통한 일반화

대부분의 고성능 딥러닝 모델은 대규모의 정답 레이블이 있는 데이터셋을 통해 지도 학습(Supervised Learning) 방식으로 훈련된다. 그러나 3D 스캐너 등을 이용해 정확한 ground-truth 대응점을 생성하는 작업은 막대한 비용과 시간이 소요되는 병목 현상을 야기한다.59

**자기 지도 학습(Self-Supervised Learning, SSL)**은 이러한 한계를 극복할 핵심적인 대안으로 주목받고 있다. SSL은 레이블이 없는 방대한 데이터로부터 데이터 자체의 내재적 구조나 속성을 활용하여 ’의사 레이블(pseudo-label)’을 생성하고, 이를 감독 신호(supervisory signal)로 삼아 유용한 표현을 학습하는 방법이다.59 SuperPoint의 Homographic Adaptation이 바로 이 SSL의 성공적인 사례이다. 앞으로 SSL을 통해 레이블링 비용을 절감하고, 인터넷상의 무한한 이미지와 비디오를 학습에 활용함으로써 모델의 일반화 성능과 강건성을 현재 수준 이상으로 끌어올리는 것이 중요한 연구 방향이 될 것이다.61 다만, 효과적인 pretext task(자기 감독을 위한 보조 과제)의 설계, 대규모 데이터 학습에 따르는 막대한 계산 비용, 학습 데이터의 편향 문제 등은 SSL이 해결해야 할 주요 과제로 남아있다.62

이러한 연구 동향은 특징점 정합 분야가 새로운 단계로 진입하고 있음을 시사한다. 즉, 단순히 ’더 나은 정합 모델’을 만드는 것을 넘어, ’어떻게 하면 인간의 감독 없이 효율적으로 정합을 학습할 수 있는가’라는 **메타 학습(meta-learning)**의 관점으로 연구의 초점이 이동하고 있다. 미래의 연구는 소량의 데이터만으로 새로운 환경에 빠르게 적응하는 능력(few-shot learning), 새로운 경험을 통해 지속적으로 학습하는 능력(continual learning), 그리고 주어진 하드웨어 제약 내에서 최적의 효율성을 갖도록 스스로 아키텍처를 최적화하는 능력 등을 갖춘, 보다 자율적인 학습 프레임워크를 구축하는 방향으로 나아갈 것이다.

8.3 연구 영역의 확장

다중 모달 정합 (Multi-modal Matching): 현재까지의 연구는 대부분 RGB-RGB 이미지 정합에 집중되어 있다. 그러나 자율주행, 의료 영상 분석 등 실제 응용 분야에서는 RGB 카메라, 깊이 센서, LiDAR, CT, MRI 등 서로 다른 센서나 양식(modality)에서 얻은 데이터를 정합해야 할 필요성이 크다. 따라서 이종 데이터 간의 의미론적 대응 관계를 학습하는 다중 모달 정합 연구가 미래의 중요한 연구 분야가 될 것이다.2
비강체 정합 (Non-rigid Matching): 현재의 모델들은 대부분 강체(rigid body) 변환을 가정한다. 사람의 표정 변화, 동물의 움직임, 옷의 주름과 같이 변형이 일어나는 대상을 정합하는 비강체 정합은 여전히 컴퓨터 비전의 어려운 난제로 남아 있으며, 딥러닝을 통한 새로운 접근법이 절실히 요구된다.

9. 결론: 딥러닝 기반 특징점 정합의 현재와 미래

본 보고서에서 분석한 바와 같이, 특징점 정합 기술은 SIFT와 같은 정교한 수동 공학적 설계에서 출발하여, SuperPoint와 같이 검출과 기술을 통합하고, SuperGlue를 통해 정합 과정 자체를 학습하며, 마침내 LoFTR에 이르러 검출기라는 전통적인 개념 자체를 없애는 방향으로 끊임없이 진화해왔다.

딥러닝은 데이터의 힘을 빌려 기존 방법론이 봉착했던 한계를 돌파했으며, 특히 텍스처 부족, 극심한 시점 및 조명 변화와 같은 도전적인 실제 환경에서의 정합 정확도와 강건성을 비약적으로 향상시켰다. 이는 SLAM, SfM, AR 등 다양한 후방 산업의 기술적 성숙도를 높이고 새로운 응용 가능성을 여는 핵심 동력이 되고 있다.

미래의 연구는 현재의 높은 정확도를 유지하면서도 실시간성과 연산 효율성을 확보하여 모바일 및 임베디드 환경으로의 적용을 확대하는 방향, 그리고 자기 지도 학습을 통해 데이터 의존성을 줄이고 모델의 일반화 성능을 극대화하는 방향으로 집중될 것이다. 이러한 노력을 통해, 딥러닝 기반 특징점 정합 기술은 미래의 자율주행차, 서비스 로봇, 혼합현실 기기 등에서 보편적으로 사용되는 핵심적인 시각 인지(visual perception) 엔진으로 확고히 자리매김할 것으로 전망된다.

10. 참고 자료

From SIFT to Transformers: The Evolution of Feature Matching …, https://www.zensai.io/blog/feature-matching-intro
arxiv.org, https://arxiv.org/html/2401.17592v2
MSM: a scaling-based feature matching algorithm for images with large-scale differences, https://www.tandfonline.com/doi/full/10.1080/17538947.2025.2543562
[OpenCV] Feature Detection & Matching | 특징 검출과 매칭 | 이미지에서 유사한 특징 찾아내기 | 이미지 대응점 - CV DOODLE, https://mvje.tistory.com/133
Full article: UAV image matching from handcrafted to deep local features, https://www.tandfonline.com/doi/full/10.1080/22797254.2024.2307619
A survey of deep-learning-based image matching algorithms - DOI, https://doi.org/10.1117/12.3067778
딥 러닝이란 무엇인가요? - 딥 러닝 AI 설명 - AWS, https://aws.amazon.com/ko/what-is/deep-learning/
[딥러닝 기본] Deep Learning 기본개념 - 욱이의 냉철한 공부, https://warm-uk.tistory.com/19
medium.com, https://medium.com/@vijayvenkat.ds/the-advantages-of-deep-learning-over-traditional-machine-learning-62a6a1eabec3#:~:text=In%20conclusion%2C%20deep%20learning%20has,feature%20engineering%20required%2C%20and%20flexibility.
Advantages and Disadvantages of Deep Learning - GeeksforGeeks, https://www.geeksforgeeks.org/deep-learning/advantages-and-disadvantages-of-deep-learning/
Comparing Deep Learning and Traditional Machine Learning - The CEO Views, https://theceoviews.com/comparing-deep-learning-and-traditional-machine-learning/
Deep Learning vs. Traditional Computer Vision - arXiv, https://arxiv.org/pdf/1910.13796
Deep Learning-based Keypoint Filtering for Remote Sensing Image …, https://koreascience.kr/article/JAKO202106763002426.pdf
2HR-Net VSLAM: Robust visual SLAM based on dual high-reliability feature matching in dynamic environments - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC12273943/
MatChA: Cross-Algorithm Matching with Feature Augmentation - arXiv, https://arxiv.org/html/2506.22336v1
제조 공정에서의 실시간 불량 탐지를 위한 딥러닝 모델 적용 연구, https://www.ktappi.kr/articles/pdf/KQxv/ktappi-2021-053-05-8.pdf
Introduction to Feature Matching Using Neural Networks - LearnOpenCV, https://learnopencv.com/feature-matching/
Deep Graphical Feature Learning for the Feature Matching Problem - CVF Open Access, https://openaccess.thecvf.com/content_ICCV_2019/papers/Zhang_Deep_Graphical_Feature_Learning_for_the_Feature_Matching_Problem_ICCV_2019_paper.pdf
Feature Matching - Hugging Face Community Computer Vision Course, https://huggingface.co/learn/computer-vision-course/en/unit1/feature-extraction/feature-matching
Panorama Stitching - CMSC426 Computer Vision, https://cmsc426.github.io/pano/
Detector-Free Structure from Motion - CVF Open Access - The …, https://openaccess.thecvf.com/content/CVPR2024/papers/He_Detector-Free_Structure_from_Motion_CVPR_2024_paper.pdf
Detector-Free Structure from Motion, https://zju3dv.github.io/DetectorFreeSfM/
Research on Different Feature Matching Algorithms for Panoramic Image Stitching - Atlantis Press, https://www.atlantis-press.com/article/126004179.pdf
A Comparative Study of Deep Learning and Traditional Machine Learning, https://www.web4business.com.au/deep-learning-vs-machine-learning/
DFM: A Performance Baseline for Deep Feature … - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2021W/IMW/papers/Efe_DFM_A_Performance_Baseline_for_Deep_Feature_Matching_CVPRW_2021_paper.pdf
LoFTR: Detector-Free Local Feature Matching with Transformers, https://zju3dv.github.io/loftr/
Decoding the dichotomy: Traditional Image Processing vs. Deep Learning, https://www.imveurope.com/sites/default/files/content/white-paper/pdfs/HCL_IMVE_WP-ImageProcessing_vs_DL.pdf
[1712.07629] SuperPoint: Self-Supervised Interest Point Detection …, https://ar5iv.labs.arxiv.org/html/1712.07629
A SUPERPOINT NEURAL NETWORK IMPLEMENTATION FOR ACCURATE FEATURE EXTRACTION IN UNSTRUCTURED ENVIRONMENTS, https://isprs-archives.copernicus.org/articles/XLVIII-1-W2-2023/1215/2023/isprs-archives-XLVIII-1-W2-2023-1215-2023.pdf
Working hard to know your neighbor’s margins: Local descriptor …, https://arxiv.org/pdf/1705.10872
HDD-Net: Hybrid Detector Descriptor with Mutual Interactive Learning, https://openaccess.thecvf.com/content/ACCV2020/papers/Barroso-Laguna_HDD-Net_Hybrid_Detector_Descriptor_with_Mutual_Interactive_Learning_ACCV_2020_paper.pdf
Learning Local Descriptors With a CDF-Based Dynamic Soft Margin - CVF Open Access, https://openaccess.thecvf.com/content_ICCV_2019/papers/Zhang_Learning_Local_Descriptors_With_a_CDF-Based_Dynamic_Soft_Margin_ICCV_2019_paper.pdf
HyNet: Learning Local Descriptor with Hybrid Similarity Measure and Triplet Loss - NIPS, https://papers.neurips.cc/paper_files/paper/2020/file/52d2752b150f9c35ccb6869cbf074e48-Paper.pdf
SuperGlue: Learning Feature Matching With … - CVF Open Access, https://openaccess.thecvf.com/content_CVPR_2020/papers/Sarlin_SuperGlue_Learning_Feature_Matching_With_Graph_Neural_Networks_CVPR_2020_paper.pdf
SuperGlue: Learning Feature Matching with Graph Neural Networks - ResearchGate, https://www.researchgate.net/publication/337560349_SuperGlue_Learning_Feature_Matching_with_Graph_Neural_Networks
SuperGlue: Learning Feature Matching With Graph Neural Networks | Request PDF, https://www.researchgate.net/publication/343461394_SuperGlue_Learning_Feature_Matching_With_Graph_Neural_Networks
LoFTR: Detector-Free Local Feature Matching … - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2021/papers/Sun_LoFTR_Detector-Free_Local_Feature_Matching_With_Transformers_CVPR_2021_paper.pdf
LoFTR: Detector-Free Local Feature Matching with Transformers - Semantic Scholar, https://www.semanticscholar.org/paper/LoFTR%3A-Detector-Free-Local-Feature-Matching-with-Sun-Shen/b91de7d12ec1103f6ef9eb0720d697a9e7ecc9fe
Repeatability benchmark tutorial - VLFeat, https://www.vlfeat.org/benchmarks/overview/repeatability.html
Evaluation of Local Detectors and Descriptors for Fast Feature Matching - Ondrej Miksik, https://miksik.co.uk/files/miksik2012icpr.pdf
A performance evaluation of local descriptors, http://www.ai.mit.edu/courses/6.891/handouts/mikolajczyk_cvpr2003.pdf
Local Features for Object Class Recognition - Computer Vision, https://vision.rwth-aachen.de/media/papers/mikolajczyk-features-iccv05.pdf
SuperGlue CVPR 2020 - Paul-Edouard Sarlin, https://psarlin.com/superglue/
HPatches: A benchmark and evaluation of handcrafted and learned …, https://homes.esat.kuleuven.be/~konijn/publications/2020/balntas.pdf
HPatches: A Benchmark and Evaluation of Handcrafted and Learned Local Descriptors - CVF Open Access, https://openaccess.thecvf.com/content_cvpr_2017/papers/Balntas_HPatches_A_Benchmark_CVPR_2017_paper.pdf
hpatches/hpatches-benchmark: Python & Matlab code for local feature descriptor evaluation with the HPatches dataset. - GitHub, https://github.com/hpatches/hpatches-benchmark
adityamwagh/SuperSLAM: SuperSLAM: Open Source … - GitHub, https://github.com/adityamwagh/SuperSLAM
A Novel Visual SLAM Based on Multiple Deep Neural Networks - MDPI, https://www.mdpi.com/2076-3417/13/17/9630
Dense-SfM: Structure from Motion with Dense Consistent Matching - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2025/papers/Lee_Dense-SfM_Structure_from_Motion_with_Dense_Consistent_Matching_CVPR_2025_paper.pdf
Seamless Integration: Advanced Deep Learning Techniques for Image Stitching | Frontiers in Health Informatics, https://healthinformaticsjournal.com/index.php/IJMI/article/download/914/914/1655
A Survey on Feature-Based and Deep Image Stitching - SciTePress, https://www.scitepress.org/Papers/2025/133685/133685.pdf
Deep Feature Extraction for Panoramic Image Stitching - Semantic Scholar, https://www.semanticscholar.org/paper/Deep-Feature-Extraction-for-Panoramic-Image-Hoang-Tran/25ac286d3fd319e7e7f7edcc9727f0a0c3323c59
Transformer-based Models for Long-Form Document Matching: Challenges and Empirical Analysis - ACL Anthology, https://aclanthology.org/2023.findings-eacl.178/
Transformer-based Models for Long-Form Document Matching: Challenges and Empirical Analysis - ACL Anthology, https://aclanthology.org/2023.findings-eacl.178.pdf
Examining the limitations and challenges of using Transformers for time series forecasting, https://www.researchgate.net/publication/384762552_Examining_the_limitations_and_challenges_of_using_Transformers_for_time_series_forecasting
Modality-Aware Feature Matching: A Comprehensive Review of Single- and Cross-Modality Techniques - arXiv, https://arxiv.org/html/2507.22791v1
Hierarchical Graph Neural Network: A Lightweight Image Matching Model with Enhanced Message Passing of Local and Global Information in Hierarchical Graph Neural Networks - MDPI, https://www.mdpi.com/2078-2489/15/10/602
EDM: Efficient Deep Feature Matching - arXiv, https://arxiv.org/html/2503.05122v1
What Is Self-Supervised Learning? - IBM, https://www.ibm.com/think/topics/self-supervised-learning
A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends - arXiv, https://arxiv.org/html/2301.05712v4
A Survey on Self-Supervised Learning: Algorithms, Applications, and Future Trends, https://www.computer.org/csdl/journal/tp/2024/12/10559458/1XR0ep31Wr6
Self-Supervised Learning Principles Challenges and Emerging Directions - Preprints.org, https://www.preprints.org/manuscript/202502.1894/v1